Big Data and Analytics Model Training এবং Prediction এর জন্য Spark SQL ব্যবহার গাইড ও নোট

312

Apache Spark SQL এবং MLlib ব্যবহার করে আপনি Machine Learning মডেল তৈরি করতে পারেন এবং সেই মডেলের উপর Prediction করতে পারেন। Spark SQL ডেটা প্রসেসিং এবং ট্রান্সফর্মেশন করার জন্য একটি অত্যন্ত শক্তিশালী টুল, এবং MLlib ব্যবহারের মাধ্যমে মডেল ট্রেনিং এবং প্রেডিকশনও করা যায়। Spark SQL এবং Spark MLlib একত্রে ব্যবহার করলে মডেল ট্রেনিং এবং প্রেডিকশন করার প্রক্রিয়া আরও সহজ এবং স্কেলেবল হয়ে ওঠে।

এখানে, Spark SQL এবং MLlib এর মাধ্যমে মডেল ট্রেনিং, প্রেডিকশন এবং ডেটা প্রস্তুতি করার উদাহরণ দেয়া হবে।


১. Data Preparation with Spark SQL

ডেটা প্রস্তুত করার জন্য Spark SQL ব্যবহার করা হয়। প্রথমে ডেটা DataFrame তে লোড করা হয় এবং তারপর SQL কোয়ারি বা DataFrame API ব্যবহার করে ফিল্টার, ট্রান্সফর্ম বা প্রিপ্রসেসিং করা হয়। এরপর সেই ডেটা ব্যবহার করে MLlib মডেল ট্রেনিং করা হয়।

উদাহরণ: DataFrame তৈরি এবং SQL কোয়ারি প্রয়োগ

from pyspark.sql import SparkSession

# SparkSession তৈরি
spark = SparkSession.builder.appName("Spark SQL and MLlib").getOrCreate()

# কিছু স্যাম্পল ডেটা তৈরি করা
data = [(1, 2.0, 3.0), (2, 3.0, 4.0), (3, 4.0, 5.0), (4, 5.0, 6.0)]
columns = ["id", "feature1", "feature2"]

# DataFrame তৈরি
df = spark.createDataFrame(data, columns)

# SQL কোয়ারি ব্যবহার করা
df.createOrReplaceTempView("data")
result_df = spark.sql("SELECT * FROM data WHERE feature1 > 2.0")

# DataFrame দেখানো
result_df.show()

আউটপুট:

+---+--------+--------+
| id|feature1|feature2|
+---+--------+--------+
|  2|     3.0|     4.0|
|  3|     4.0|     5.0|
|  4|     5.0|     6.0|
+---+--------+--------+

এখানে, SQL কোয়ারি ব্যবহার করে feature1 এর মান ২ এর বেশি এমন রেকর্ডগুলো ফিল্টার করা হয়েছে।


২. MLlib Model Training with Spark SQL Data

Spark SQL থেকে ডেটা প্রস্তুত করার পর, MLlib এর সাহায্যে Machine Learning মডেল ট্রেনিং করা হয়। আপনি বিভিন্ন মডেল যেমন Linear Regression, Logistic Regression, Decision Trees ইত্যাদি ব্যবহার করতে পারেন। এখানে আমরা Logistic Regression মডেল ব্যবহার করে একটি ক্লাসিফিকেশন টাস্ক দেখবো।

উদাহরণ: Logistic Regression মডেল ট্রেনিং

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler

# Feature vector তৈরি করা
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
df_with_features = assembler.transform(result_df)

# Logistic Regression মডেল তৈরি করা
lr = LogisticRegression(featuresCol="features", labelCol="id")

# মডেল ট্রেনিং করা
lr_model = lr.fit(df_with_features)

# মডেল প্রেডিকশন করা
predictions = lr_model.transform(df_with_features)
predictions.show()

আউটপুট:

+---+--------+--------+--------------+--------------------+----------+
| id|feature1|feature2|      features|       rawPrediction|prediction|
+---+--------+--------+--------------+--------------------+----------+
|  2|     3.0|     4.0| [3.0,4.0]| [0.9389817230732...|       1.0|
|  3|     4.0|     5.0| [4.0,5.0]| [1.4264722707047...|       1.0|
|  4|     5.0|     6.0| [5.0,6.0]| [1.9139628183363...|       1.0|
+---+--------+--------+--------------+--------------------+----------+

এখানে:

  • LogisticRegression মডেল ব্যবহার করা হয়েছে এবং VectorAssembler দিয়ে feature1 এবং feature2 কলামকে একটি feature vector তে রূপান্তর করা হয়েছে।
  • এরপর সেই ফিচার ভেক্টরের উপর Logistic Regression মডেল ট্রেনিং করা হয়েছে এবং প্রেডিকশন করা হয়েছে।

৩. Model Evaluation

মডেল ট্রেনিংয়ের পর মডেলটির পারফরম্যান্স মূল্যায়ন করা গুরুত্বপূর্ণ। Spark MLlib Evaluator ব্যবহার করে মডেলের পারফরম্যান্স পরিমাপ করতে সহায়তা করে। উদাহরণস্বরূপ, BinaryClassificationEvaluator ব্যবহার করে Logistic Regression মডেলটির accuracy পরিমাপ করা যেতে পারে।

উদাহরণ: Model Evaluation with BinaryClassificationEvaluator

from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Model Evaluation: Accuracy পরিমাপ করা
evaluator = BinaryClassificationEvaluator(labelCol="id", rawPredictionCol="rawPrediction")
accuracy = evaluator.evaluate(predictions)

print(f"Model Accuracy: {accuracy}")

এখানে, BinaryClassificationEvaluator ব্যবহার করে মডেলের accuracy নির্ধারণ করা হয়েছে, যেখানে rawPrediction এবং label কলাম গুলি ব্যবহার করা হয়েছে।


৪. SQL এবং MLlib Integration with Streaming Data

Spark SQL এবং MLlib ব্যবহার করে Structured Streaming এর উপর মডেল ট্রেনিং এবং পূর্বাভাস করা যায়। স্ট্রিমিং ডেটার জন্য মডেল তৈরি এবং প্রেডিকশন করার জন্য Structured Streaming API ব্যবহার করা হয়।

উদাহরণ: Structured Streaming for Prediction

# স্ট্রিমিং ডেটা লোড করা
streaming_df = spark.readStream.format("json").load("path/to/streaming_data")

# স্ট্রিমিং ডেটার উপর পূর্বাভাস করা
streaming_df_with_features = assembler.transform(streaming_df)
streaming_predictions = lr_model.transform(streaming_df_with_features)

# ফলাফল লিখা
query = streaming_predictions.writeStream.outputMode("append").format("console").start()
query.awaitTermination()

এখানে, streaming_df স্ট্রিমিং ডেটা থেকে লোড করা হয় এবং Logistic Regression মডেল দিয়ে প্রেডিকশন করা হয়।


৫. Hyperparameter Tuning with Spark SQL and MLlib

মডেল ট্রেনিংয়ের সময় Hyperparameter Tuning গুরুত্বপূর্ণ ভূমিকা পালন করে। Spark SQL এবং MLlib ব্যবহার করে Cross Validation এবং Grid Search প্রয়োগ করা যায় যাতে মডেলের পারফরম্যান্স উন্নত হয়।

উদাহরণ: Hyperparameter Tuning with CrossValidator

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Hyperparameter tuning
paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.elasticNetParam, [0.8, 0.9]) \
    .build()

# Cross Validator তৈরি করা
evaluator = BinaryClassificationEvaluator()
crossval = CrossValidator(estimator=lr, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=3)

# মডেল ট্রেনিং এবং টিউনিং
cvModel = crossval.fit(df_with_features)

# মডেল প্রেডিকশন
predictions = cvModel.transform(df_with_features)
predictions.show()

এখানে CrossValidator এবং ParamGridBuilder ব্যবহার করে Grid Search এবং Hyperparameter Tuning করা হয়েছে।


সারাংশ

Spark SQL এবং MLlib এর ইন্টিগ্রেশন ব্যবহার করে মডেল ট্রেনিং এবং প্রেডিকশন অত্যন্ত সহজ এবং স্কেলেবল হয়ে ওঠে। SQL কোয়ারি ব্যবহার করে ডেটা প্রসেসিং এবং প্রিপ্রসেসিং করার পর MLlib এর অ্যালগরিদম ব্যবহার করে মডেল তৈরি এবং প্রেডিকশন করা যায়। Hyperparameter tuning এবং model evaluation Spark SQL এবং MLlib এর মাধ্যমে খুব সহজে করা যায়। Spark SQL এবং MLlib একত্রে ব্যবহার করে বড় ডেটাসেট বা স্ট্রিমিং ডেটার উপর মডেল ট্রেনিং, পারফরম্যান্স পরিমাপ, এবং পূর্বাভাস করা সম্ভব।

Content added By
Promotion

Are you sure to start over?

Loading...